We propose a CNN-based approach for 3D human body pose estimation from single RGB images that addresses the issue of limited generalizability of models trained solely on the starkly limited publicly available 3D pose data. Using only the existing 3D pose data and 2D pose data, we show state-of-the-art performance on established benchmarks through transfer of learned features, while also generalizing to in-the-wild scenes. We further introduce a new training set for human body pose estimation from monocular images of real humans that has the ground truth captured with a multi-camera marker-less motion capture system. It complements existing corpora with greater diversity in pose, human appearance, clothing, occlusion, and viewpoints, and enables an increased scope of augmentation. We also contribute a new benchmark that covers outdoor and indoor scenes, and demonstrate that our 3D pose dataset shows better in-the-wild performance than existing annotated data, which is further improved in conjunction with transfer learning from 2D pose data. All in all, we argue that the use of transfer learning of representations in tandem with algorithmic and data contributions is crucial for general 3D body pose estimation.
translated by 谷歌翻译
The monograph summarizes and analyzes the current state of development of computer and mathematical simulation and modeling, the automation of management processes, the use of information technologies in education, the design of information systems and software complexes, the development of computer telecommunication networks and technologies most areas that are united by the term Industry 4.0
translated by 谷歌翻译
We introduce ensembles of stochastic neural networks to approximate the Bayesian posterior, combining stochastic methods such as dropout with deep ensembles. The stochastic ensembles are formulated as families of distributions and trained to approximate the Bayesian posterior with variational inference. We implement stochastic ensembles based on Monte Carlo dropout, DropConnect and a novel non-parametric version of dropout and evaluate them on a toy problem and CIFAR image classification. For CIFAR, the stochastic ensembles are quantitatively compared to published Hamiltonian Monte Carlo results for a ResNet-20 architecture. We also test the quality of the posteriors directly against Hamiltonian Monte Carlo simulations in a simplified toy model. Our results show that in a number of settings, stochastic ensembles provide more accurate posterior estimates than regular deep ensembles.
translated by 谷歌翻译
We present a retrospective on the state of Embodied AI research. Our analysis focuses on 13 challenges presented at the Embodied AI Workshop at CVPR. These challenges are grouped into three themes: (1) visual navigation, (2) rearrangement, and (3) embodied vision-and-language. We discuss the dominant datasets within each theme, evaluation metrics for the challenges, and the performance of state-of-the-art models. We highlight commonalities between top approaches to the challenges and identify potential future directions for Embodied AI research.
translated by 谷歌翻译
TensorFlow GNN(TF-GNN)是张量曲线的图形神经网络的可扩展库。它是从自下而上设计的,以支持当今信息生态系统中发生的丰富的异质图数据。Google的许多生产模型都使用TF-GNN,最近已作为开源项目发布。在本文中,我们描述了TF-GNN数据模型,其KERAS建模API以及相关功能,例如图形采样,分布式训练和加速器支持。
translated by 谷歌翻译
这项研究致力于解决该问题,以确定使用人工智能系统的建筑管理人员的专业自适应能力。它提议了完全连接的馈送前向前神经网络体系结构,并执行了经验建模以创建数据集。人工智能系统的模型允许在执行专业领域的多价分类过程中评估完全连接的前馈神经网络中的过程。已经为机器学习模型的培训过程开发了一种方法,该方法反映了人工智能系统的组件之间的内部连接,使其可以从培训数据中学习。为了训练神经网络,使用了35个输入参数和29个输出参数的数据集;集合中的数据量为936个数据线。神经网络训练的比例分别为10%和90%。这项研究的结果可用于进一步提高成功实现专业实现所需的知识和技能。
translated by 谷歌翻译
自主代理可以在新环境中导航而不构建明确的地图吗?对于PointGoal Navigation的任务(“转到$ \ delta x $,$ \ delta y $'),在理想化的设置(否RGB -D和驱动噪声,完美的GPS+Compass)下,答案是一个明确的“是” - 由任务无形组件(CNNS和RNN)组成的无地图神经模型接受了大规模增强学习训练,在标准数据集(Gibson)上取得了100%的成功。但是,对于PointNav在现实环境中(RGB-D和致动噪声,没有GPS+Compass),这是一个悬而未决的问题。我们在本文中解决了一个。该任务的最强成绩是成功的71.7%。首先,我们确定了性能下降的主要原因:GPS+指南针的缺失。带有RGB-D传感和致动噪声的完美GPS+指南针的代理商取得了99.8%的成功(Gibson-V2 Val)。这表明(解释模因)强大的视觉探子仪是我们对逼真的PointNav所需的全部。如果我们能够实现这一目标,我们可以忽略感应和致动噪声。作为我们的操作假设,我们扩展了数据集和模型大小,并开发了无人批准的数据启发技术来训练模型以进行视觉探测。我们在栖息地现实的PointNAV挑战方面的最新状态从71%降低到94%的成功(+23,31%相对)和53%至74%的SPL(+21,40%相对)。虽然我们的方法不饱和或“解决”该数据集,但这种强大的改进与有希望的零射击SIM2REAL转移(到Locobot)相结合提供了与假设一致的证据,即即使在现实环境中,显式映射也不是必需的。 。
translated by 谷歌翻译
败血症是一种威胁生命的患有器官功能障碍的疾病,是全球死亡和重症疾病的主要原因。急诊科分类过程中败血症的准确检测将允许尽早开始实验室分析,抗生素给药和其他败血症治疗方案。这项研究的目的是确定是否可以将EHR数据与最新的机器学习算法(Kate Sepsis)和临床自然语言处理一起提取和合成,以产生准确的脓毒症模型,并将Kate Sepsis与现有的败血症筛查方案进行比较爵士和QSOFA。使用来自16家参与医院的分类数据的患者遇到的患者遭遇开发了机器学习模型(Kate Sepsis)。凯特败血症,SIRS,标准筛查(具有感染源的SIRS)和QSOFA在三个设置中进行了测试。队列A是对单个站点1的医疗记录的回顾性分析。同类B是对位点1的前瞻性分析1.同伴C是对站点1的回顾性分析,并有15个地点。在所有队列中,凯特败血症的AUC为0.94-0.963,TPR为73-74.87%和3.76-7.17%FPR。标准筛选显示AUC为0.682-0.726,TPR为39.39-51.19%和2.9-6.02%FPR。 QSOFA协议的AUC为0.544-0.56,TPR为10.52-13.18%和1.22-1.68%FPR。对于严重的败血症,在所有队列中,凯特败血症的AUC为0.935-0.972,TPR为70-82.26%和4.64-8.62%FPR。对于败血性休克,在所有队列中,凯特败血症的AUC为0.96-0.981,TPR为85.71-89.66%和4.85-8.8%FPR。 SIRS,标准筛选和QSOFA表现出严重败血症和败血性休克检测的低AUC和TPR。凯特败血症在分类中提供的败血症检测性能比常用的筛查方案更好。
translated by 谷歌翻译
大型语言模型已被证明可以使用少量学习来实现各种自然语言任务的出色表现,这大大减少了将模型调整到特定应用程序所需的特定任务培训示例的数量。为了进一步了解量表对少量学习的影响,我们培训了一个5400亿个参数,密集激活的变压器语言模型,我们称之为“途径”语言模型棕榈。我们使用Pathways在6144 TPU V4芯片上训练了Palm,这是一种新的ML系统,可在多个TPU POD上进行高效的训练。我们通过在数百种语言理解和产生基准的基准方面实现最先进的学习结果来证明扩展的持续好处。在这些任务中,Palm 540B实现了突破性的表现,在一系列多步推理任务上表现出色,超过了最新的最新表现,并且在最近发布的Big Benchmark上表现优于平均人类表现。大量的大型基础任务显示出与模型量表的不连续改进,这意味着当我们扩展到最大模型时,性能急剧增加。 Palm在多语言任务和源代码生成方面也具有很强的功能,我们在各种基准测试中证明了这一点。我们还提供了有关偏见和毒性的全面分析,并研究了训练数据记忆的程度,相对于模型量表。最后,我们讨论与大语言模型有关的道德考虑,并讨论潜在的缓解策略。
translated by 谷歌翻译
量子计算有望加快科学和工程中的一些最具挑战性问题。已经提出了量子算法,显示了从化学到物流优化的应用中的理论优势。科学和工程中出现的许多问题可以作为一组微分方程重写。用于求解微分方程的量子算法已经示出了容错量计算制度中的可提供的优势,其中深宽的量子电路可用于求解局部微分方程(PDES)的大型线性系统。最近,提出了求解非线性PDE的变分方法也具有近术语量子器件。最有前途的一般方法之一是基于近期科学机器学习领域的发展来解决PDE。我们将近期量子计算机的适用性扩展到更一般的科学机器学习任务,包括从测量数据集发现微分方程。我们使用可分辨率量子电路(DQC)来解决由操作员库参数化的等式,并在数据和方程的组合上执行回归。我们的结果显示了普通模型发现(QMOD)的有希望的路径,在经典和量子机器学习方法之间的界面上。我们在不同系统上展示了成功的参数推断和方程发现,包括二阶,常微分方程和非线性部分微分方程。
translated by 谷歌翻译